UltraQuant: Caché KV de 4 bits para agentes contextuales Descubre cómo UltraQuant reduce el tiempo hasta el primer token en 3.47x y acelera la inferencia en agentes con mucho contexto usando caché KV de 4 bits en 2026-06-19 · 2 min